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摘 要 : 自然 环境 下 果实 的 精准 检测 是 火龙 果 采 摘 机 器 人 执行 采摘 作业 的 先决 条 件 。 为 提高 自然 环境 下 果 
实 识 别 的 精确 性 、 和 鲁 棒 性 和 检测 效率 ， 本 研究 对 YOLOX (You Only Look Once X) 网 络 进 行 改进 ， 提 出 了 一 
种 含有 注意 力 模块 的 目标 检测 方法 。 为 便于 在 舰 入 式 设备 上 部 署 ， 本 方法 以 YOLOX-Nano 网 络 为 基准 ,将 
卷 积 注意 力 模 块 (Convolutional Block Attention Module，CBAM) 添加 到 YOLOX-Nano 的 主干 特征 提取 网 络 
中 ， 通 过 为 主干 网 络 提取 到 不 同 尺度 的 特征 层 分 配 权重 系数 来 学 习 不 同 通 道 间 特征 的 相关 性 ， 加 强 网 络 深 
层 信息 的 传递 ， 降 低 自 然 环境 背景 下 对 火龙 果 识 别 的 干扰 。 对 该 方法 进行 性 能 评估 和 对 比试 验 ， 经 过 训练 
后 ， 该 火龙 果 目 标 检测 网 络 在 测试 集 的 AP,, 值 为 98.9%，AP,,,。 的 值 为 72.4%。 在 相同 试验 条 件 下 对 比 其 它 
YOLO 网 络 模型 ， 该 方法 平均 检测 精度 分 别 超越 YOLOv3 、YOLOv4-Tiny 和 YOLOv5-S 模 型 26.2%、9.8% 和 
7.9%。 最 后 对 不 同 分 辩 率 的 火龙 果 果 园 自 然 环 境 下 采集 的 视频 进行 实时 测试 。 试 验 结果 表明 ， 本 研究 提出 
的 改进 YOLOX-Nano 目标 检测 方法 ， 每 帧 平均 检测 时 间 为 21.72 ms, FAB 0.99, 模型 大 小 仅 3.76 MB， 检 
测速 度 、 检 测 精 度 和 模型 大 小 满足 自然 环境 下 火龙 果 采 摘 的 技术 要 求 。 
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. | 的 日 益 增高 ， 火 龙 果 生产 成 本 变 得 越 来 越 高 。 据 
火龙 果 因 具 有 很 高 的 营养 、 药 用 、 保 健 和 经 统计， 中 国 水 果 采 收 用 工 成 本 占 生 产 总 成 本 的 


济 价值 ， 其 种 植 产业 近年 来 在 中 国 发 展 迅 猛 。 ”35% I) 40%, BLE WOR AL 2.33%. ALL, 
2018 年 ， 中 国 已 经 成 为 世界 第 二 大 火龙 果 生 产 ”实现 火龙 果 采 收 作业 的 机 械 化 和 自动 化 对 提高 火 
国 ， 种 植 面 积 超 过 5 万 公顷 ， 产 量 超过 100 万 龙 果 生 产 的 技术 水 平 、 促 进 火 龙 果 产 业 的 持续 发 
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展 具 有 重要 的 意义 。 而 如 何 实现 自然 环境 下 果园 
中 火龙 果 果 实 的 精准 识别 和 快速 检测 ， 是 火龙 果 
采 收 作业 自动 化 必须 解决 的 首要 问题 。 

基于 深度 学 习 的 神经 网 络 目 标 检测 方法 在 农 
产品 检测 领域 中 得 到 广泛 应 用 中。Jordi 等 外 使 
用 MaskR-CNN 实 例 分 割 网 络 实现 苹果 的 检测 和 
分 割 。 刘 志 军 等 “ 将 轻 量化 改进 YOLOYv5 网 络 
部 署 在 无 人 机 上 实现 了 树 上 苹果 的 检测 。 Si 
对 MobileNetV3-Small 网 络 进行 改进 ， 利 用 鲸鱼 
算法 优化 模型 比例 系数 ， 优 化 后 的 模型 识别 多 类 
苹果 的 平均 精度 达到 94.43%。 穆 龙 涛 等 "对 
Faster R-CNN 中 主干 特征 提取 网 络 进行 改进 后 ， 
其 对 猕猴 桃 平均 识别 精度 达到 94.75%。 在 荔枝 
检测 研究 中 ， 陈 燕 等 ”改进 YOLOv3 网 络 检测 
荔枝 串 ， 平 均 精 度 均值 达到 943%, Beet Re 
改进 SSD (Single Shot MultiBox Detector) 网 络 
对 无 人 机 拍摄 的 荔枝 图 像 进行 小 目标 检测 ， 改 进 
后 的 网 络 平均 精确 率 在 55.79%， 比 原始 方法 提 
高 了 约 30%。 

在 芒果 检测 研究 中 ，Roy 等 '" 改进 YO- 
LOv4 网 络 ， 用 于 复杂 果园 环境 下 对 芒果 的 检测 ， 
其 平均 检测 精度 达到 96.2%。Xu 等 "提出 一 种 
改进 的 轻 量化 YOLOv3 网 络 ， 实 现 了 对 自然 环境 
下 绿色 芒果 的 检测 。 

在 番 荔 检测 研究 中 ，Xu 等 5 提出 一 种 改进 
的 Mask R-CNN 网 络 的 方法 ， 番 新 识别 准确 率 提 
高 了 11.53%。 周 云 成 等 对 VGGNet 网 络 进 行 
结构 优化 ， 对 番茄 果 、 花 和 葵 进 行 检测 ， 检 测 平 
均 精 度 分 别 为 81.64%、84.48% 和 53.94%, 
Zheng 等 5 改进 YOLOv4 网 络 提高 自然 环境 中 
番茄 的 检测 准确 率 ， 其 平均 检测 准确 率 为 
94.44%。 赵 春江 等 …“ 利用 改进 的 YOLOv3 网 络 
实现 番茄 花 休 不 同 花 期 的 辨识 检测 ， 并 在 番茄 授 
粉 机 器 人 上 进行 了 实际 验证 。 

目前 ， 针 对 自然 环境 中 火龙 果 的 目标 识别 与 
检测 方法 的 相关 研究 报道 较为 少见 ， 尚 缺乏 相对 
成 熟 的 技术 方法 可 以 应 用 。Li 等 ”和 王 金 鹏 
AE Ds 分 别 改 进 YOLOv3 和 YOLOv4 网 络 HEH 


轻 量 级 卷 积 网 络 MobileNet-YOLO 和 YOLOv4-Ti- 
ny， 火 龙 果 检测 的 平均 精度 分 别 达 到 97% 和 
96.48%。 然 而 ， 上 述 对 火龙 果 的 检测 研究 中 ， 其 
模型 训练 过 程 较 为 繁琐 ,需要 手动 构建 销 框 
(Anchor)。 锚 框 对 检测 结果 存在 影响 ， 并 且 对 于 
远 处 的 小 目标 火龙 果 ， 上 述 方法 存在 漏 检测 的 情 
况 ， 对 小 目标 果实 检测 效果 不 明显 。 男 外 ， 上 述 
方法 受 环境 和 光照 的 影响 较 大 ， 重 棒 性 不 高 。 

为 了 探索 自然 环境 下 成 熟 火龙 果 的 精准 识别 
和 快速 检测 方法 ， 针 对 现 有 研究 方法 存在 的 技术 
问题 ， 本 研究 通过 引入 注意 力 机 制 ， 提 出 了 一 种 
基于 改进 YOLOX 网 络 的 火龙 果 目 标 检测 算法 ， 
该 方法 在 复杂 背景 下 具有 较 好 的 鲁 棒 性 ， 适 合 
然 环 境 下 火龙 果 的 目标 检测 ， 其 结果 可 为 其 他 复 
杂 环 境 下 水 果 的 快速 识别 提供 一 定 的 参考 。 


2 材料 与 方法 


2.1 试验 数据 获取 


由 于 缺少 可 直接 使 用 的 火龙 果 数 据 集 ， 本 研 
究 在 广州 市 增城 区 和 从 化 区 火龙 果 种 植 园 拍摄 火 
龙 果 图 像 ， 时 间 为 2021 年 7 月 17 日 (晴天) 和 
2021 年 10 月 17 日 ( 庶 阴 天 )。 拍 摄 设备 为 CAN- 
ON EOS M100 相机 ,成像 距离 为 50~150 cm, 
自动 曝光 ， 图 像 分 辩 率 像素 为 2400X1344 ， 以 
*.JPG 格 式 存储 。 共 采集 原始 图 像 1976 张 ,包括 
在 晴天 顺 光 、 晴 天 逆光 、 阴 天 视角 下 的 整 株 多 果 
和 任意 单果 图 像 (图 1)。 为 降低 重复 图 片 数 量 以 
及 无 果实 图 片 对 模型 训练 的 干扰 ， 使 用 人 工 筛选 
的 方法 对 采集 到 的 原始 图 像 进行 数据 清洗 ， 清 洗 
后 得 到 总 计 1744 张 包含 火龙 果 的 原始 图 像 。 


2.2 数据 集 准 备 


使 用 开源 LabelImg 工具 手工 为 图 像 中 的 火龙 
果 添 加 标签 ， 并 参考 Pascal VOC 制作 数据 集 ， 
标签 名 称 为 Dragon fruit。 标 签 原则 为 在 视野 范 
围 内 ， 根 据 火 龙 果 表 面 颜色 信息 进行 人 工 标记 。 
具体 为 : 对 表皮 红色 像素 面积 超过 90% 的 火龙 果 
进行 标记 ， 不 考虑 绿色 果实 ; 有 遮挡 的 火龙 果 ， 
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(b) 晴 天 顺 光 (c) 阴 天 
图 1 不 同 拍摄 环境 下 火龙 果 原 始 图 像 


Fig. 1 Original images of dragon fruit in different environments 


人 工 估计 被 记 挡 区 域 进行 标记 ; 视野 内 存在 较 远 
处 的 果实 ， 若 像素 面积 过 小 (<20X20) WAGE 
行 标 记 。 

2.3 数据 集 扩充 


数据 集 扩充 可 以 有 效 地 扩展 样本 的 多 样 性 ， 
保证 模型 在 不 同 环境 下 具有 较 高 的 鲁 棒 性 。 在 本 
研究 中 ， 使 用 了 旋转 、 翻 转 、 添 加 噪声 、 模 糊 等 
操作 将 数据 集 扩 充 至 5232 张 。 


3 识别 网 络 模型 构建 


YOLO (You Only Looks Once) 算法 是 一 阶 
段 目标 检测 算法 的 代表 之 一 ， 由 于 实时 检测 速度 
快 ， 检 测 精 度 高 ， 在 农业 领域 的 目标 检测 和 识别 
中 得 到 广泛 应 用 。YOLOv1~YOLOv5 均 是 基于 
销 框 的 探测 器 ， 需 要 手工 预先 设 定 销 框 大 小 的 分 
配 规则 。 


3.1 YOLOX 网 络 模型 


由 于 本 研究 是 针对 采摘 机 器 人 在 田间 自然 环 
境 下 的 实时 检测 ， 因 此 研究 的 目标 检测 网 络 需要 
考虑 的 主要 因素 有 模型 大 小 是 否 易于 在 艇 人 式 设 
备 上 部 署 ， 在 复杂 光照 及 背景 条 件 下 检测 精度 和 
推理 速度 。YOLOX 是 Ge 等 加 提出 的 单 阶段 目 
标 检测 算法 ， 它 将 目标 区 域 预测 和 目标 类 别 预测 
集成 到 一 个 单一 的 神经 网 络 模 型 中 ， 融 合 了 YO- 
LO 系列 网 络 的 优点 ,创新 地 添加 了 收敛 速度 更 
快 、 精 度 更 高 的 解 耦 头 、 并 引入 无 锚 框 (An- 
chor free) 方法 和 SimOTA (标签 分 配 策略 ) 动 
态 正 样本 匹配 等 ””， 实 现 了 高 精度 的 快速 目标 
检测 和 识别 。 同 时 ，YOLOX 有 多 种 基准 的 型 号 


用 于 不 同 的 应 用 场景 ， 例 如 YOLOX-X、YO- 
LOX-L 和 YOLOX-Darknet53 等 标准 型 号 和 采用 
深度 可 分 离 卷 积 构建 的 轻 量化 型 号 。 

3.1.1 网 络 结构 

YOLOX 使 用 CSPDarkNet 作 为 主干 特征 提取 
网 络 。 输 入 图 像 在 主干 特征 提取 网 络 中 进行 特征 
提取 ， 提取 到 的 特征 可 以 被 称 作 特征 层 ， 作 为 输 
人 图 像 的 特征 集合 。 在 CSPDarkNet 中 ， 获 取 到 
三 个 特征 层 作 为 有 效 特征 层 ， 它 们 位 于 CSP- 
DarkNet 的 不 同位 置 ， 为 下 一 步 的 网 络 建设 做 
准备 。 

寺 征 金 字 塔 网 络 可 以 被 称 作 YOLOX 的 加 强 
特征 提取 网 络 ， 在 CSPDarkNet 中 获取 到 的 三 个 
有 效 特征 层 会 在 这 一 部 分 进行 特征 融合 ， 以 获得 
不 同 尺度 的 特征 信息 。YOLOX 中 同样 使 用 了 在 
YOLOv4 中 用 到 的 路 径 聚 合 网 络 (Path Aggrega- 
tion Network, PANet) 结构 小。PANet 在 自 上 问 
下 的 特征 金字 塔 网 络 (Feature Pyramid Network, 
FPN) 结构 中 增加 了 自 底 向 上 的 路 径 聚 合 模块 ， 
以 更 好 地 传达 语义 和 位 置信 息 。PANet 能 够 缩短 
言 息 路 径 ， 增 强 特征 金字 塔 ， 对 于 YOLOX 网 络 
实现 多 尺度 检测 ， 尤 其 是 对 小 目标 的 检测 非常 
重要 。 

YOLOX 的 解 耘 头 (Decoupled head) 与 以 往 
的 YOLO 不 同 ， 它 包含 一 个 1X1 的 卷 积 层 以 调 
整 通道 数量 ， 然 后 是 两 个 并 行 分 支 ， 每 个 分 支 上 
包含 两 个 卷 积 层 ， 两 条 分 支 分 别 用 于 分 类 和 回归 
任务 it EAJ (intersection over Union, 
IoU) 分 支 被 添加 在 回归 分 支 上 。 

3.1.2 ”损失 函数 
本 研究 使 用 的 YOLOX 的 损失 函数 由 三 部 分 
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组 成 ， 总 损失 见 公式 (1), 
天 二 也 下 (1) 
其 中 , 工 为 总 损失 ，Zus 为 预测 框 与 真实 框 之 
间 的 位 置 误差 的 损失 ，L 为 判断 对 象 类 别 概率 
的 损失 ，Zw 为 对 象 置信 度 的 损失 ; Cls H Obj Zt 
别 表示 对 象 的 类 别 概率 和 置信 度 ， 由 二 值 交叉 彤 
损失 函数 计算 得 到 。 公 式 (2) 为 IoU 损失 函数 
表达 式 。 
[ANB] 
|A U B| 
Ep, Loss HIRR KZE (Loss Function); A 
表示 预测 边界 框 的 位 置 ; BNA AE 
位 置 。 
3.1.3 激活 函数 
YOLOX 使 用 平滑 的 SiLU 激 活 函 数 ， 它 具有 
下 界 而 无 上 界 ， 如 公式 (3) 所 示 。 


SiLU (x) =x X Sigmoid (x) = x x 


LOSS py = 1 - loU =1 - (2) 


1 
Lathes 


(3) 
3.1.4 无 锚 框 方法 

与 以 往 的 YOLO 网 络 所 使 用 的 Anchor base 
不 同 ，YOLOX 采 用 Anchor free 的 策略 ， 避 人 免 手 
动 设 置 销 框 和 参数 定义 的 步骤 。 根 据 无 锚 方法 避 
免 了 手动 锚 设 计 和 参数 定义 的 步 又 。 无 锚 方 法 根 
据 锚 定 框 的 中 心 点 是 否 位 于 地 面 真 值 框 的 矩形 内 
来 确定 正 样本 和 负 样 本 ， 可 以 有 效 简 化 检测 器 的 
训练 和 解码 过 程 ， 缓 解 正 负 样本 的 不 平衡 ， 加 快 
训练 过 程 ， 并 有 助 于 一 定 程 度 的 精度 提高 。 


3.2 改进 的 YOLOX 网 络 模型 设计 


YOLOX 主干 网 络 包 含 多 个 跨 阶 段 层 (Cross 
Stage Partial，CSP) ， 具 有 多 个 残 差 网 络 IFA 
CSP 层 将 输入 特征 经 过 少量 处 理 与 多 个 残 差 的 输 
出 特征 直接 相连 ， 具 有 较 大 的 残 差 边 。 该 操作 虽 
然 有 效 缓解 了 加 深 网 络 带 来 的 梯度 消失 问题 ,但 
这 种 残 差 会 将 特征 信息 连同 包含 的 噪声 一 起 传输 
到 较 深 的 网 络 ， 对 主干 网 络 提取 特征 造成 一 些 不 
利 的 影响 。 因 此 ， 针 对 YOLOX 在 自然 环境 下 火 
龙 果 检测 的 一 些 缺 陷 ， 本 研究 引入 卷 积 注意 力 模 
块 (Convolutional Block Attention Module, 


CBAM)， 在 主干 网 络 提取 到 的 三 个 有 效 特征 层 
后 分 别 增加 CBAM 结构 ， 使 网 络 更 加 关注 重要 
特征 ， 抑 制 非 必要 特征 。 改 进 后 的 YOLOX 网 络 
结构 如 图 2 所 示 。 

CBAM 是 Woo 等 中 提出 的 一 种 注意 力 模 
块 。CBAM 会 将 输入 的 特征 层 分 别 进行 通道 注意 
力 机 制 和 空间 注意 力 机 制 的 处 理 ， 使 提取 到 的 特 
征 具 有 更 强 的 表示 能 力 。 其 结构 示意 如 图 3 
所 示 。 

3.2.1 通道 注意 力 机 制 

通道 注意 力 机 制 主要 关注 输入 图 像 中 有 意义 
的 信息 。 对 输入 尺寸 为 CXHXAW 的 特征 层 分 别 
进行 平均 池 化 和 最 大 池 化 ， 获 取 到 两 个 尺寸 为 
CX1X1 的 特征 层 ; 接着 它们 经 过 两 个 神经 网 络 
MLP (Multilayer Perceptron) ， 第 一 个 神经 元 个 
数 为 Cr， 激 活 函 数 为 ReLU， 第 二 个 神经 元 个 数 
为 C。 其 中 ，C 为 输入 的 特征 层 通道 数 ，r 为 下 降 
率 ; 将 得 到 的 两 个 结果 进行 相 加 ， 再 经 过 一 个 
Sigmoid 函数 ， 得 到 输入 特征 层 每 个 通道 的 权重 
值 ; 最 后 将 获得 的 权重 值 乘 以 原 输 入 特征 层 得 到 
新 的 特征 。 对 于 一 个 输入 特征 ， 经 过 通道 注意 力 
机 制 后 得 到 的 特征 如 公式 (4) 所 示 。 

F'=MA(F)®F (4) 

其 中 ,五 表 示 输 入 的 特征 和 矩阵 ; 表示 通道 
注意 力 机 制 输出 的 特征 映射 ; M. 为 通道 压缩 权 
EIEE; @ HEERKE. 

3.2.2 ”空间 注意 力 机 制 

空间 注意 力 机 制 主要 关注 目标 的 位 置信 息 。 
对 经 过 通道 注意 力 机 制 输出 的 特征 层 进行 最 大 池 
化 和 平均 池 化 ， 得 到 两 个 尺寸 为 1XHXW 的 特 
征 层 ， 将 其 进行 堆 车 ;再 经 过 一 个 通道 数 为 1 的 
7X7 卷 积 操作 和 一 个 Sigmoid 函数 得 到 权重 值 ; 
最 后 将 权重 值 乘 以 输入 的 特征 层 得 到 最 终 的 特 
征 。 对 于 通道 注意 力 机 制 输出 特征 F'， 经 过 空间 
注意 力 机 制 后 得 到 的 特征 PF" 如 公式 (5) 所 示 。 

F"=M,(F')® F' (5) 

其 中 ， 巨 "表示 空间 注意 力 机 制 输出 的 特征 
FEM; M ,为 空间 压缩 权 值 矩阵 。 
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Fig. 3 Convolutional Block Attention Module structure 


3.3 模型 的 训练 与 测试 


3.3.1 试验 平台 

本 研究 所 使 用 的 训练 平台 为 配备 Windows10 
64-bit 操 作 系 统 的 台式 计算 机 ， 其 中 CPU A Intel 
i9 10900X @3.75GHz, GPU 为 NVIDIA GeForce 
GTX3090, RAM 为 128GB, PyTorch v1.7.1, 
CUDA v11.1, LA CUDNN v8.0.2。 训 练 环境 和 
测试 环境 相同 。 
3.3.2 ”网络 训练 
将 数据 集中 5232 张 图 片 按照 8:1:1 随机 划分 
为 训练 集 、 验 证 集 和 测试 集 ， 具 体 如 表 1 所 示 。 


使 用 官方 建议 的 预 训练 权重 进行 300 轮 次 (Ep- 
och) 训练 ， 其 中 前 50 轮 次 为 冻结 训练 ， 批 大 小 
(BatchSize) 设置 为 64， 之 后 的 解冻 训练 将 
BatchSize 设 置 为 32。 最 后 ， 考 虑 到 在 Mosaic 增 
强 的 过 程 中 ， 样 本 由 于 偏离 实际 情况 会 导致 训练 
效果 降低 。 因 此 ， 最 后 30 轮 次 关闭 Mosaic 和 


MixUp 数 据 增强 方式 。 
表 1 数据 集 的 分 布 
Table 1 Distribution ofthe dataset 

数据 集 图 片 总 数量 / 张 目标 个 数 /个 
训练 集 4237 11,865 
验证 集 471 1340 
测试 集 524 1396 

总 数 5232 14,601 


ChinaXiv 合 作 期 刊 


125 


202302.00142v1 


chinaXiv 


3.4 模型 评价 指标 


使 用 调和 均值 已 值 (Fl-score) 、 有 召回 率 
(Recall), WMZ (Precision) 、 平 均 精 度 (Aver- 
age Precision, AP). 、 检 测速 度 〈Frames per Sec- 
ond，FPS) 、 平 均 检 测 时 间 (Average Time) 、 模 
型 大 小 (Model Size) 来 评价 训练 后 的 模型 。 其 
tH, F,, Precision 和 Recall 计 算 公 式 如 下 。 


Precision X Recall 
F,=2*x -一 
Precision + Recall (6) 


oe TP 
Precision TP +FP x 100% my 


TP 
Recall = Tp FEN x 100% (8) 


其 中 ，TP (True Positive， 真 阳性 ) 指正 确 
分 割 的 正 样本 数量 ; FP (False Positive， 假 阳 
PE) 为 未 正确 分 割 的 正 样本 数量 ; FN (False 
Negative， 假 阴性 ) 为 未 正确 分 割 的 负 样 本 数量 ， 
F, 为 在 IoU=0.5 的 时 候 ， 模 型 的 平均 精度 和 召回 
率 的 调和 平均 值 。 

AP 计 算 如 公式 (9)。 


lldr 


AP = | Precision xRecall (9) 
0 


其 中 ，7 为 积分 变量 ， 是 对 召回 率 与 精确 度 
乘积 的 积分 ;AP 为 PR (Precision-Recall) 曲线 
与 坐标 轴 围 成 的 面积 ， 取 值 在 0~1 之 间 ; AP,， 
为 IoU=0.5 时 不 同 查 全 率 下 的 精度 平均 值 ; 
AP, soos DH loU 的 值 从 0.5 到 0.95， 步 长 为 0.5， 
a oe Pom 
可 以 更 全 面 地 反映 检测 模型 的 性 能 ; APS. AP,, 
oe ee ee 
中 目标 、 大 目标 检测 的 平均 精度 ， 其 中 小 目标 定 
义 为 像素 面积 Area<32:， 中 目标 32 一 Area 一 
96°, KHER Area>96°, 


4 结果 与 分 析 


4.1 不 同 分 辨 率 输入 的 比较 


对 不 同 分 辨 率 (640 X 640 像素 和 416X416 
像素 ) 火龙 果 图 像 的 输入 进行 训练 和 比较 。 训 练 
集 和 验证 集 的 损失 曲线 如 图 4 所 示 ， 红 色 和 绿色 


曲线 分 别 表示 相同 训练 集 下 高 分 辩 率 和 低 分 辨 率 
输入 的 损失 曲线 。 可 见 ， 在 训练 过 程 中 ， 两 种 分 
辨 紊 输入 下 模型 的 收敛 性 相似 ， 在 早期 阶段 训练 
集 的 损失 迅速 下 降 ， 随 着 训练 轮 次 (Epoch) 的 
增加 ， 两 条 曲线 逐渐 下 降 并 趋 于 稳定 。 当 Epoch 
达到 250 左 右 时 ， 模 型 逐渐 收 僵 ， 最 终 红 色 曲 线 
的 损失 值 低 于 绿色 曲线 。 


Dy) 


= | 页 iat) 


图 4 不 同 输入 分 辨 率 的 YOLOX-Nano 损失 曲线 
Fig. 4 Loss curves ofYOLOX-Nano with different input res- 

olutions 

为 了 分 析 模 型 在 验证 集 下 的 收敛 情况 ， 在 相 
同 验证 集 下 ， 蓝 色 和 黄色 曲线 分 别 表示 高 分 辨 率 
和 低 分 辨 率 输入 的 验证 集 损失 曲线 ， 两 条 曲线 收 
敛 性 相似 ， 最 终 达 到 平缓 状态 ， 蓝 色 曲 线 的 损失 
值 低 于 黄色 曲线 ， 与 训练 集 下 两 者 损失 情况 
相似 。 

综 上 表明 ， 两 种 不 同 分 辩 率 输入 下 的 YO- 
LOX-Nano 网 络 都 具有 较 好 的 收敛 性 ， 而 高 分 辨 
率 输入 使 火龙 果 特 征 更 加 清晰 ， 可 以 更 好 地 学 习 
特征 ， 该 结论 与 文献 类 似 ”。 因 此 ， 本 人 研究 使 
用 640X640 像 素 输入 分 辩 率 作为 最 终 检测 模型 。 


4.2 不 同 模型 大 小 的 结果 分 析 


使 用 相同 的 训练 方法 ， 分 别 训 练 了 三 种 轻 量 
化 的 YOLOX 网 络 模型 ( 即 YOLOX-Nano YO- 
LOX-Tiny 和 YOLOX-S)， 并 在 相同 测试 集 下 进 
行 测试 ， 分析 其 性 能 差异 。 由 表 2 可 知 ， 三 种 检 
测 网 络 厂 值 相差 不 大 ， 在 IoU 的 值 为 0.5 的 时 候 ， 
YOLOX-Nano 的 平均 精度 相 较 YOLOX-Tiny 和 
YOLOX-S 分 别提 高 了 2.3 个 百分点 和 1.6 个 百 分 
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点 。 而 YOLOX-Nano 的 AP,;os 值 达到 70.2%， 均 
高 于 YOLOX-Tiny 和 YOLOX-S 的 AP, .0s fH 3.9 
个 百分点 和 2.6 个 百分点 。YOLOX-Nano 模型 大 
小 仅 3.7 MB ， 远 小 于 YOLOX-Tiny 的 19.4 MB 和 
YOLOX-S 的 34.3 MB。 上 述 结果 中 ， 模 型 大 小 
最 小 的 YOLOX-Nano 性 能 表现 最 优 ， 这 可 能 是 
由 于 在 训练 过 程 中 ， 三 种 模型 保持 几乎 相同 的 学 
习 进 度 和 优化 参数 ， 训 练 中 对 三 种 模型 的 增强 策 
略 相 同 〈 即 消除 Mosic 和 MaxUp 的 时 期 相同 ) 。 

合适 的 增强 策略 在 不 同 大 小 的 模型 中 有 所 不 
同 ， 对 于 大 模型 ， 更 强 的 增强 更 有 用 ,文献 【19] 
中 有 类 似 的 结论 。 因 此 ， 为 了 便于 在 舰 入 式 和 移 
动 设备 上 部 署 ， 在 保证 有 较 好 的 检测 精度 的 前 提 
下 ， 本 人 研究 选择 模型 较 小 的 YOLOX-Nano 作为 
基准 进行 研究 。 


4.3 改进 后 YOLO 网 络 模 型 的 结果 分 析 


为 验证 融合 了 CBAM 后 的 YOLOX-Nano 网 
络 模型 性 能 ， 对 改进 前 后 的 网 络 模型 进行 比较 分 


表 2 不 同 模型 大 小 的 YOLOX-Nano 检 测 结果 对 比 
Table 2 Comparison of YOLOX test results of different 


model sizes 


模型 大 小 MB Fis AP sos% AP,y/% 
YOLOX-Nano 3.7 0.98 70.2 98.0 
YOLOX-Tiny 19.4 0.97 66.3 95.7 
YOLOX-S 34.3 0.97 67.6 96.4 


析 。 分 别 将 两 个 模型 在 相同 火龙 果 数 据 集 上 进行 
识别 试验 。 如 图 5 所 示 ， 改 进 前 的 YOLOX-Nano 
在 逆光 条 件 下 受 太阳 光照 影响 ， 存 在 误 识 别 现 
象 ， 错 误 地 将 逆光 画面 中 产生 的 一 定 儿 何 外 形 的 
光斑 识别 为 火龙 果 ， 而 改进 后 的 YOLOX-Nano 
模型 则 未 出 现 这 种 情况 。 在 图 6 中 ， 两 种 网 络 模 
型 均 对 场景 中 的 火龙 果 进 行 正确 识别 ，YOLOX- 
Nano 识别 到 的 目标 从 左 到 右 置信 度 分 别 为 0.73、 
0.79 和 0.69， 而 改进 后 的 YOLOX-Nano 识 别 到 的 
相同 果实 置信 度 从 左 到 右 分 别 为 0.82、0.81 和 
0.74， 引 入 CBAM 后 的 YOLOX-Nano 识别 到 火 
龙 果 的 置信 度 高 于 YOLOX-Nano。 两 种 模型 检测 
火龙 果 的 具体 评价 指标 结果 如 表 3 所 示 。 


(a) 原 始 YOLOX-Nano 


(b) 改 进 的 YOLOX-Nano 


图 5 YOLOX-Nano 改进 前 后 火龙 果 检 测 结果 对 比 


Fig. 5 Comparison of test results of YOLOX-Nano before and after improvement 


(a) R48 YOLOX-Nano, #43 2b AS) AF 5 AH 0.73,0.79 42 0.69 (b) 改 进 的 YOLOX-Nano, 置 信和 度 由 左 到 右 分 别 为 0.82,0.81 和 0.74 


图 6 YOLOX-Nano 改进 前 后 火龙 果 检 测 结果 对 比 


Fig. 6 Test results comparison of YOLOX-Nano before and after the improvement 
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表 3 改进 的 YOLOX-Nano 网 络 火龙 果 检 测 结果 对 比 


Table 3 Comparison of dragon fruit detection results of improved YOLOX-Nano network 


改进 的 网 络 模 型 模型 大 小 MB 平均 时 间 /ms Fi, APY /% AP,s.00/% AP /% AP „/% AP, /% 
YOLOX-Nano 3.70 18.46 0.98 98.0 70.2 55.4 60.8 76.2 
YOLOX-Nano+CBAM 3.76 21.72 0.99 98.9 72.4 56.2 63.3 78.0 


由 表 3 可知， 本 研究 提出 的 改进 后 的 YOLOX- 
Nano 目标 检测 网 络 ， 在 检测 时 间 相 差 3.26 ms 的 
情况 下 ，P 值 达到 0.99，AP,; 值 高 于 YOLOX- 
Nano 目标 检测 网 络 0.9 个 百分点 ，AP,s6w; 值 提升 
了 2.2 个 百分点 。 在 添加 了 CBAM 后 ， 模 型 大 小 
咯 有 增加 ， 但 模型 对 大 、 中 、 小 不 同 尺度 的 火龙 
果 目 标 检测 平均 精度 分 别提 升 1.8%、2.5% 和 
0.8%。 

对 比 结果 说 明 ， 在 复杂 自然 背景 下 ， 引 入 
CBAM 一 定 程 度 上 提高 了 模型 对 火龙 果 目 标 检 测 
的 鲁 棒 性 。 通 道 注意 力 机 制 对 特征 图 中 不 同 通道 


赋予 不 同 的 权重 值 ， 空 间 注 意 力 机 制 对 同一 特征 
图 不 同位 置 的 特征 点 赋予 不 同 权 重 值 ， 二 者 的 结 
合 使 得 提取 到 的 火龙 果 特 征 更 加 精炼 ， 总 体 上 提 
升 了 模型 检测 的 平均 精度 ， 其 模型 体积 和 检测 时 
间 满 足 能 入 式 设 备 部 署 需求 。 


4.4 不 同 YOLO 网 络 模型 的 结果 分 析 


为 客观 地 反映 改进 的 YOLOX-Nano 网 络 的 
性 能 ， 本 研究 还 使 用 相同 的 设置 训练 其 它 轻 量化 
YOLO 模 型 以 及 标准 的 YOLOv3 模型 作为 参照 ， 
并 将 它们 与 C-YOLOX-Nano 模 型 进行 比较 ,五 
种 目标 检测 网 络 检测 对 比 结果 如 表 4 所 示 。 


表 4 不 同 网 络 火 龙 果 检 测 结果 对 比 


Table 4 Comparison of dragon fruit detection results of different networks 


网 络 模型 模型 大 小 /MB WRES ”平均 时 间 /ms Fi, AP,/% AP soo/% AP/% APW% AP,/% 
YOLOX-Nano+CBAM 3.76 46 21.72 0.99 98.9 72.4 562 63.3 78.0 
YOLOv5-S 27.10 59 16.87 0.93 91.0 59.5 29.0 498 66.5 
MobileNetV3-YOLOv4 53.70 44 22.66 0.94 91.8 55.4 38.8 448 62.6 
YOLOv4-Tiny 22.40 145 6.88 0.91 89.1 54.4 25.5 42.6 62.2 
YOLOv3 235.00 51 19.38 0.83 72.7 41.4 1.7 31.0 49.7 


可 以 看 出 ， 在 相同 测试 集 下 改进 后 的 YO- 
LOX-Nano 网 络 的 AP,, 值 达到 了 98.9%， 均 高 于 
其 它 模型 。 此 外 ， 该 网 络 的 AP,.w 值 分 别 比 YO- 
LOv5-S, MobileNetV3-YOLOv4 和 YOLOv4-Tiny 
提升 了 12.9%、17.0% 和 18.0%。 观 察 AP, AP. 
AP, 的 值 不 难看 出 ， 在 近 距 离 视 野 范 围 内 的 大 目 


2.1 倍 。 而 原始 的 YOLOv3 模型 在 检测 精度 上 均 
小 于 其 它 模型 ， 对 小 目标 火龙 果 的 AP, 值 仅 为 
1.7% ， 基 本 无 法 对 远 距 离 火 龙 果 进行 检测 。 

本 研究 提出 的 改进 的 YOLOX-Nano 网 络 模 
型 在 保持 模型 大 小 更 轻 量化 的 同时 ， 在 检测 性 能 
上 显著 优 于 其 它 模 型 ，F 值 达到 0.99， 远 高 于 其 


标 火 龙 果 检 测 上 ， 改 进 的 YOLOX-Nano 网 络 模 
型 对 比 其 它 轻 量化 YOLO 网 络 模型 的 平均 检测 精 
度 提升 了 约 12% 左 右 。 随 着 距离 的 增加 ， 对 中 远 
距离 视野 范围 内 火龙 果 的 像素 面积 逐渐 减少 ， 检 
测 精 度 均 有 所 下 降 ， 改 进 的 YOLOX-Nano 对 中 
目标 火龙 果 的 检测 性 能 对 比 其 它 轻 量化 模型 提升 
了 约 17% 左 右 。 对 小 目标 火龙 果 检 测 的 平均 精度 
IEJ 56.2%, KAFE YOLOvS-S 4) 1.947%, 4 Mo- 
bileNetV3-YOLOv4 fi 1.447%, J YOLOv4-Tiny 的 


它 模型 。 虽 然 检 测速 度 不 是 最 快 的 ， 但 改进 的 
YOLOX-Nano 仍然 具有 较 高 的 检测 速度 ， 其 帧 率 
达到 46 Vs， 平 均 检 测 时 间 约 21.72 ms， 可 以 保 
证 火龙 果 采 摘 机 器 人 检测 的 实时 性 。 

为 了 验证 改进 后 的 YOLOX-Nano 在 自然 环 
境 中 的 检测 效果 ， 本 人 研究 将 不 同 模型 对 顺 光 、 遗 
阴 、 逆 光 等 不 同 自 然 环 境 下 的 火龙 果 检 测 效果 进 
行 对 比 。 对 于 图 7 和 图 8 所 示 的 顺 光 和 遮 阴 条 件 
下 ， 显 然 可 以 看 出 ， 本 研究 中 改进 的 YOLOX- 
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Nano 网 络 检测 结果 均 好 于 其 它 4 种 目标 检测 网 
络 ， 并 未 出 现 误 检测 情况 ， 甚 至 对 于 较 远 处 的 小 
目标 火龙 果 和 表面 遮挡 严重 的 火龙 果 也 被 识别 
到 。 对 于 图 9 所 示 的 严重 逆光 情况 下 ， 上 述 网 络 
均 存 在 漏 检 的 情况 ， 仅 有 改进 的 YOLOX-Nano 
All YOLOV3 网 络 检测 出 了 较 近 的 火龙 果 ， 且 改 
进 的 YOLX-Nano 检测 到 的 置信 上 度 略 高 于 YO- 


(d)YOLOv4-Tiny 


LOv3， 而 其 它 3 种 网 络 在 该 自然 情况 下 均 未 检测 
出 火龙 果 。 

综 上 所 述 ， 本 研究 提出 的 方法 能 够 有 效 地 对 
自然 环境 中 火龙 果 进 行 检 测 。 此 外 ， 在 严重 逆光 
情况 下 ， 会 影响 算法 的 检测 性 能 ， 解 决 此 类 环境 
光照 对 相机 影响 的 问题 仍然 需要 进一步 的 研究 。 


(e) YOLOv3 


图 7 顺 光 时 不 同 网 络 火龙 果 检 测 效果 


Fig. 7 Dragon fruit detection effect of different networks during lighting 


(d) YOLOv4-Tiny 


(b) YOLOv5-S 


(e) YOLOv3 


图 8 遮 阴 时 不 同 网 络 火龙 果 检 测 效果 


Fig. 8 Dragon fruit detection effect of different networks during shading 
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(a) & BEM YOLOX-Nano 


图 9 逆光 时 不 同 网 络 火龙 果 检 测 效果 


(b) YOLOv3 


Fig. 9 Dragon fruit detection effect of different networks during backlighting 


4.5 不 同 视频 分 辩 率 输入 的 结果 分 析 


为 了 验证 改进 后 的 YOLOX-Nano 目标 检测 
网 络 是 否 满足 自然 环境 下 实时 检测 的 需求 ， 本 人 研 
究 使 用 ZED 2i 双 目 相 机 采集 不 同 分 辩 率 输入 下 
的 视频 数据 进行 检测 ， 计 算 改 进 后 的 YOLOX- 
Nano 网 络 在 各 分 辨 率 下 0~100 帧 的 平均 检测 帧 
率 ， 对 比 结果 如 表 5 所 示 ， 其 中 分 辨 率 为 相机 采 
样 分 辨 率 ， 相 机 帧 率 为 相机 采样 设置 帧 率 ， 平 均 
检测 帧 率 为 改进 后 的 YOLOX-Nano 网 络 检测 帧 
率 的 平均 值 。 该 模型 在 4416X1242 分 辨 率 下 平 
均 检 测 帧 率 为 5.77 Vs， 降低 输入 分 辨 率 ， 在 
1340X376 分 辩 率 下 平均 检测 帧 率 提 高 到 20.94 fys， 
随 着 分 辩 率 输入 的 降低 ， 模 型 平均 检测 帧 率 提 
升 。 图 10 为 改进 后 的 YOLOX-Nano 网 络 在 
3840X1080 和 1340X376 分 辨 率 下 左 相 机 视角 下 
第 50 帧 的 检测 效果 图 ， 此 时 检测 帧 率 分 别 为 
6.63 fs 和 20.41 f/s。 综 上 上， 改进 后 的 YOLOX- 
Nano 目标 检测 网 络 检测 帧 率 满 足 实 时 检测 需求 ， 
可 为 其 他 自然 环境 下 水 果 识 别提 供 一 定 的 参考 。 


5 结 论 


本 人 研究 介绍 了 一 种 基于 改进 的 YOLOX 火龙 
果 检 测 方法 。 通 过 引入 注意 力 机 制 改进 YOLOX- 
Nano 目标 检测 网 络 。 网 络 经 过 训练 后 ， 在 IoU= 
0.5 时 检测 火龙 果 的 AP 值 为 98.9%。 在 AP,,uw 的 
值 为 72.4%， 对 小 目标 检测 AP, 为 56.2%， 此 外 ， 
改进 后 的 网 络 模型 与 其 他 网 络 模 型 检测 方法 的 比 
较 ， 该 模型 在 不 同 光照 和 遮挡 条 件 下 准确 地 检测 
出 火龙 果 。 改 进 的 YOLOX-Nano 单 幅 图 像 的 平 


(b)1340X376 分 辨 率 (ZED 2i 左 相机 视图 ) 

图 10 政 进 的 YOLOX-Nano 网 络 火 龙 果 检 测 帧 率 对 比 
Fig. 10 Comparison of dragon fruit detection frame rates of 
improved YOLOX-Nano network 
HS 不 同 分 辩 率 视频 火龙 果 检测 结果 
Table 5 Comparison of dragon fruit detection frame rates in 


different resolutions 


分 辨 率 相机 帧 率 /fs ) 平均 检测 帧 率 /fs” ) 
4416X 1242 15 5.77 
3840X 1080 30 6.89 
2560X 720 60 12.34 
1340X376 100 20.94 


均 检 测 时 间 为 21.72 ms， 且 模型 大 小 为 3.76 MB 
的 轻 量 级 模型 ， 适 合用 于 衣 入 式 设备 和 移动 终 
端 。 对 不 同 输入 分 辨 率 的 视频 流 进行 实时 检测 , 
当 输 入 分 辨 率 为 1340X376 时 , 平均 检测 帧 率 约 
为 21 f/s， 满 足 实时 检测 需求 。 综 上 ， 本 研究 提 
出 改进 的 YOLOX-Nano 目标 检测 模型 的 实时 性 
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和 准确 性 满足 在 自然 环境 中 火龙 果 的 快速 检测 要 


求 ， 
Wos 


对 火龙 果 智 能 化 收获 装备 的 研制 具有 重要 意 
可 为 其 他 水 果 的 智能 化 检测 技术 研究 提供 


Fs 
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Detection Method for Dragon Fruit in Natural 
Environment Based on Improved YOLOX 
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Abstract: Dragon fruit detection in natural environment is the prerequisite for fruit harvesting robots to perform harvesting. In 
order to improve the harvesting efficiency, by improving YOLOX (You Only Look Once X) network, a target detection network 
with an attention module was proposed in this research. As the benchmark, YOLOX-Nano network was chose to facilitate de- 
ployment on embedded devices, and the convolutional block attention module (CBAM) was added to the backbone feature ex- 
traction network of YOLOX-Nano, which improved the robustness of the model to dragon fruit target detection to a certain ex- 
tent. The correlation of features between different channels was learned by weight allocation coefficients of features of different 
scales, which were extracted for the backbone network. Moreover, the transmission of deep information of network structure 
was strengthened, which aimed at reducing the interference of dragon fruit recognition in the natural environment as well as im- 
proving the accuracy and speed of detection significantly. The performance evaluation and comparison test of the method were 
carried out. The results showed that, after training, the dragon fruit target detection network got an AP,, value of 98.9% in the 
test set, an AP, ..,, value of 72.4% and F, score was 0.99. Compared with other YOLO network models under the same experi- 
mental conditions, on the one hand, the improved YOLOX-Nano network model proposed in this research was more light- 
weight, on the other hand, the detection accuracy of this method surpassed that of YOLOv3, YOLOv4 and YOLOVS respective- 
ly. The average detection accuracy of the improved YOLOX-Nano target detection network was the highest, reaching 98.9%, 
26.2% higher than YOLOv3, 9.8% points higher than YOLOv4-Tiny, and 7.9% points higher than YOLOvS-S. Finally, real- 
time tests were performed on videos with different input resolutions. The improved YOLOX-Nano target detection network pro- 
posed in this research had an average detection time of 21.72 ms for a single image. In terms of the size of the network model 
was only 3.76 MB, which was convenient for deployment on embedded devices. In conclusion, not only did the improved YO- 
LOX-Nano target detection network model accurately detect dragon fruit under different lighting and occlusion conditions, but 
the detection speed and detection accuracy showed in this research could able to meet the requirements of dragon fruit harvest- 
ing in natural environment requirements at the same time, which could provide some guidance for the design of the dragon fruit 
harvesting robot. 


Key words: fruits picking; natural environment; dragon fruit; object detection; YOLOX; attention mechanism; deep learning 
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